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RÉSUMÉ. Nous étudions, par des méthodes statistiques sur des corpus français et italiens, le phé- 
nomène de réduction des termes complexes dans les langues de spécialité. Il existe deux types 
de réductions : anaphorique et lexicale. Nous montrons que la réduction anaphorique dépend 
du type de discours (de vulgarisation, pédagogique, spécialisé) mais ne dépend ni du domaine, 
ni de la langue, alors que la réduction lexicale dépend du domaine et est plus fréquente dans 
les domaines techniques à évolution rapide. D 'autre part, nous montrons que la réduction ana- 
phorique a tendance à suivre la forme pleine du terme, nous définissons une notion d'arbre 
anaphorique de terme et nous étudions ses propriétés. Concernant la réduction lexicale, nous 
tentons de démontrer statistiquement qu 'il existe une notion de cycle de vie de terme, où la 
forme pleine est progressivement remplacée par une réduction lexicale. 

ABSTRACT. Our study applies statistical methods to French and Italian corpora to examine the 
phenomenon of multi-word term réduction in specialty languages. There are two kinds of ré- 
duction: anaphoric and lexical. We show that anaphoric réduction dépends on the discourse 
type (vulgarization, pedagogical, specialized) but is independent ofboth domain and language; 
that lexical réduction dépends on domain and is more fréquent in technical, rapidly evolving 
domains; and that anaphoric réductions tend tofollowfull terms rather than précède them. We 
define the notion of the anaphoric tree ofthe term and study its properties. Concerning lexical 
réduction, we attempt to prove statistically that there is a notion of term lifecycle, where thefull 
form is progressively replaced by a lexical réduction. 

MOTS-CLÉS: Terminologie, langues de spécialité, extraction automatique de termes, termes com- 
plexes, réduction anaphorique, réduction lexicale. 

keywords: Terminology, specialty languages, automatic term extraction, multi-word lexical 
units, anaphoric réduction, lexical réduction. 
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1. Introduction 

En terminologie, nombreuses ont été les études portant sur les termes complexes 
BCOL 001 |JÂC"Ô3l IPOR 911 . leurs variantes réduites BFRE 021 13ÂCÔ31 |M0L 98| , les 
textes et le discours spécialisés et le mécanisme de la réduction dans les langues de 
spécialité HJAC 96lOvTfl . 

Pour justifier l'importance d'étudier le comportement des unités complexes dans le 
cadre des langues de spécialité, il suffit de dire qu'elles composent 80% des éléments 
constituant les textes de spécialité BJAC 031 p. 48]. Il est donc clair que leur rôle mérite 
d'être analysé et étudié dans tous ses aspects. 

Notre contribution s'inscrit dans le cadre théorique de la terminologie textuelle 
et computationnelle [B OU 99l ICON 05al appliquée aux discours spécialisés. Dans 
notre cas, le fait d'aborder les problèmes de la variation des termes complexes en 
terminologie, c'est prendre en compte au moins trois types de faits, à savoir : 

- les caractéristiques de la structure interne d'un terme complexe RPOR 961 
ICOL 001 . son évolution |M0L 98] et les effets que cette évolution peut avoir sur la 
langue de spécialité [JAC 96 1 ; 

-les caractéristiques des environnements textuels étudiés [DE S 061 IALE 051 
l'usage et le comportement des termes dans le discours IJAC 001 et les effets sur la 
communication, les usagers et la langue de spécialité |LER 09 VE C 081 ; 

- le traitement automatique des terminologies IDAI 981 et la terminologie compu- 
tationnelle ISAV03I . 

La nature du terme et surtout son rôle dans le discours sont d'une importance 
fondamentale dans notre recherche. Ce n'est que récemment que l'intérêt pour la va- 
riation des termes a été l'objet de débats et d'analyses BSOG 021 . La fonction des 
termes n'est plus uniquement celle de dénommer une entité dans un système concep- 
tuel figé ; l'évolution continue de la science et des techniques demande un renouvel- 
lement constant des terminologies et leur adaptation aux nécessités des usagers et des 
situations communicatives. 



2. Autour de la définition du terme complexe 

Le terme complexe est une unité monoréférentielle (critère de monoréférentialité) 
qui appartient à une langue de spécialité (critère terminologique), et qui représente 
une notion univoque (critère notionnel) |COL 00 1. La structure d'un terme complexe 
est binaire par définition (critère de binarité : tête/expansion, déterminant/déterminé, 
hyper-/hyponyme, cf. ci-dessous). 

Parmi les critères structuraux définissant les termes complexes, la binarité occupe 
sans doute une place fondamentale puisque tous les termes complexes ont une struc- 
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Il cambiaraento climatico e il degrado ambientale sono suscettibili di provocare l'aumento délia migra- 
zione dall'Africa sub-sahariana, con effetti potenzialmente devastanti per le centinaia di milioni di persone, 
soprattutto povere, che lî vivono. [...] Oggi, il degrado è un problema serio per 32 Paesi dell'Africa, e oltre 
trecento milioni di persone che già affrontant) la scarsità d'acqua. [...] Inoltre, in Sénégal, le migrazioni 
interne e internazionali sono state provocate dai cambiamenti ambientali che hanno ridotto le opportu- 
nità di lavoro neU'agricoltura, la quale è diminuita con l'aumentare del degrado ambientale. [...] Ihttp: 
//www. ecologiae . com/riscaldamento- globale- r if ugiati- climat ici- aument are/ 14240/ 1 

I terreni vitati destinati alla produzione dei vini a Denominazione di Origine Controllata (D.O.C.) devono 
essere iscritti — su denuncia dei conduttori interessati tramite il Comune territorialmente compétente che 
opéra la verifica attraverso l'Ispettorato Provinciale dell'Agricoltura — in apposito Albo pubblico istituito 
presso ogni Caméra di Commercio. [...] L'iscrizione all'Albo serve per poter effettuare la « denuncia délie 
uve » — da parte dei conduttori di terreni già iscritti - destinate alla produzione di vino a Denominazione di 
Origine Controllata, al Comune compétente per territorio. Ciô al fine di commercializzare il prodotto con la 
rispettiva denominazione. [...] Ihttp : / /www. cameradicommercio . ag.it/index . php?option=com_ 
content&task=view&id=47&Itemid=110l 

La denominazione di origine controllata « Soave » e « Soave classico » è riservata ai vini « Soave » (anche 
con la specificazione délia sottozona Colli Scaligeri), « Soave » spumante e « Soave classico », che rispon- 
dono aile condizioni ed ai requisiti stabiliti dal présente disciplinare di produzione. [...] Le condizioni am- 
bientali e di coltura dei vigneti destinati alla produzione dei vini a denominazione controllata « Soave » e 
« Soave » Classico devono essere quelle tradizionali délia zona e, comunque, atte a conferire aile uve e al 
vino derivato le specifiche caratteristiche. [...] Ihttp : / /www. ilsoave . com/disciplinare .php l 

Figure 1 - Exemples de termes complexes dans leur contexte. 



ture binairq^J composée par deux éléments qui peuvent être simples ou composés 

hcolool 

Par exemple (cf. fig. |TJ : 

— [degrado ] [ambientale ] : le terme complexe est composé de deux constituants 
simples. Ce facteur influence le mécanisme de la réduction qui, dans la plupart des 
termes à deux composants, ne s'avère qu'en donnant lieu à des variantes anaphoriques, 
comme degrado, ci-dessus. 

- [denominazione] [di] [origine controllata] : le terme complexe est composé de 
deux constituants eux-mêmes composés. Cette structure permet la réalisation de deux 
typologies de réduction (variantes : denominazione et denominazione controllata, ou 
DOC). Rappelons ici le débat concernant la relation entre le mécanisme de la siglai- 
son et la réduction qui reste toujours ouvert. Dans notre étude, nous avons traité les 
deux mécanismes comme non équivalents à cause de la motivation qui les justifie : la 
siglaison n'est pas un mécanisme spontané repondant à des exigences textuelles, mais 
plutôt un mécanisme émanant des experts d'un certain domaine. IABR 921 



1. La binarité, en tant que caractéristique du terme complexe, nous permet de considérer sa 
structure divisée en deux parties permettant une meilleure identification des rôles des éléments : 
la tête, responsable de la caractérisation syntaxique du TC et les constituants qui en définissent 
les changements au niveau sémantiques. Pour l'instant, nous n'avons pas considéré les relations 
hiérarchiques entre les éléments, qui pourraient nous permettre d'envisager les rapports reliant 
les différentes composantes du terme complexe [ COL OOl . 
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La binarité peut être analysée selon les trois niveaux structuraux des termes com- 
plexes : 

- une structure syntagmatique : tête et composants ; 

- une structure sémantique : déterminant/déterminé ; 

- une structure onomasiologique : hyperonyme/hyponyme. 

Au niveau syntagmatique, le terme complexe est une unité composée linéaire qui 
est formée de composants considérés soit comme des éléments forts (noms, verbes, 
adjectifs et adverbes) ou bien lexicaux, soit comme des éléments faibles (prépositions, 
articles et conjonctions) ou bien grammaticaux ICOL , DEL 04] . Ces éléments sont 
en relation d'interdépendance grammaticale entre eux. La structure syntagmatique du 
terme complexe peut être schématiquement représentée comme suit [COL 00 1 : 

terme complexe = (tête) + (composant + composant 2 + composant 3 ). 

Lorsque nous nous situons au niveau sémantique, nous retrouvons la tête (déter- 
miné) et les composants (déterminants). Les déterminants caractérisent au niveau sé- 
mantique le déterminé, qui donc change son réfèrent notionnel. 

Au niveau onomasiologique, les composants sont étudiés selon la typologie des 
relations qui s'instaurent entre eux, par exemple l'analyse des rapports d'hyperony- 
mie/hyponymie. 

Pour représenter graphiquement cette relation, prenons l'exemple metodo di pro- 
duzione biologica. Nous constatons que la tête metodo instaure une relation d'hyper- 
onymie/hyponymie avec le terme complexe en forme pleine; d'ailleurs nous distin- 
guons plusieurs degrés de dépendance : 

dépendance . 

metodo > di produzione 

4- 

... . dépendance ... 

metodo di produzione — — — > biologica 

i 

metodo di produzione biologica. 

La binarité d'un terme complexe est à la base de son instabilité et des changements 
que sa linéarité peut subir aux trois niveaux structuraux. Ces modifications sont déter- 
minées par les déplacements des composants ou bien leur chute, comme dans le cas 
de la réduction. 

Pour l'exemple « agricoltura biodinamica » nous avons : 

- plan syntagmatique : [agricoltura] (tête) + [biodinamica] (composant) ; 

- plan sémantique : [agricoltura] (déterminé) + [biodinamica] (déterminant) ; 

- plan onomasiologique : [agricoltura] (hyperonyme) + [biodinamica] (hypony me). 

Si le composant biodinamica tombait, des changements seraient évidents à tous 
les niveaux. Il est donc fondamental de souligner que même si la réduction affecte 
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tous les niveaux structuraux d'un terme complexe, les effets de ce mécanisme ne se 
reflètent pas sur la fonction dénominative du terme complexe plein. 

3. Autour de la définition de la réduction 

Plusieurs études se sont intéressées à la question fondamentale suivante : « com- 
ment l'immersion dans un discours permet-elle d'omettre une partie a priori essen- 
tielle d'un terme complexe, c'est-à-dire formé par plusieurs mots, comme par exemple 
'contrôleur de carrefour', 'équipement de terrain', 'effort à la commande', 'réseau rou- 
tier national', etc. ? » IJAC 961 . 

La réduction est un mécanisme discursif qui, à travers l'élision d'au moins un 
constituant, transforme globalement un terme complexe en maintenant ses noyaux 
référentiel et notionnel IICOL 971 . 

Sur la base des recherches de Guilbert [GUI 75] et Portelance [POR 89 1, on peut 
affirmer que la réduction coïncide avec la suppression d'une information non différen- 
tielle, c'est-à-dire l'élément ou les éléments non fondamentaux pour la catégorisation 
du terme. Toutefois, cette acception limite ce mécanisme aux seuls phénomènes socio- 
linguistiques, sans tenir compte du fait que la réduction peut répondre également des 
exigences contextuelles reliées au contexte et au cotexte [ALE05| ; cette acception 
diminue, en outre, la valeur de la réduction et exclut la possibilité que ce mécanisme 
puisse former des alternatives au syntagme plein. La réduction représente en revanche, 
comme nous le verrons, un élément important de cohésion textuelle. 

De manière générale, ce phénomène a été traité soit comme un simple mécanisme 
d'anaphore qui permet par exemple de reprendre le parc naturel par le/ce parc, soit 
comme un processus de lexicalisation qui, par exemple, a transformé voiture automo- 
bile en automobile ou téléphone portable en portable. Schématiquement, l'effacement 
de l'expansion du terme complexe resterait, en tant qu'anaphore, étroitement dépen- 
dant du contexte et du cotexte, tandis que l'effacement de sa tête produirait une nou- 
velle unité lexicale. Le discours instaure ainsi un jeu entre les phénomènes de réduc- 
tion participant à sa propre cohésion et ceux participant à la construction de nouvelles 
unités lexicales d'un domaine. 

En outre, la variation par réduction satisfait le besoin d'économie de la langue 
ITRA 0811 . En effet, la répétition de la forme pleine du syntagme devient lourde et non 
économique, alors que l'emploi d'une variante réduite conserve le noyau notionnel et 
référentiel, tout en évitant l'ambiguïté. Collet IICOL 04 ] ajoute que la réduction, en ce 
qu'elle est précisément due à la réitération du terme complexe, d'une part, et en ce 
qu'elle constitue une forme différente de sa source, d'autre part, est à ranger parmi les 
moyens de cohésion lexicale. La finalité de la réduction est donc double : sur le plan 
de l'encodage IJAC 031 . elle permet une économie d'énergie, sur le plan du décodage 
IICOL 001 p. 528-529], elle contribue à la cohésion textuelle en ce qu'elle constitue 
une forme de répétition d'un item lexical. Les caractéristiques de ces microstructures 
(ce que Collet appelle les « contextes réductionnels ») permettent la réduction et au- 
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torisent les locuteurs à se dispenser d'une partie a priori essentielle du terme. Ce 
mécanisme est donc en relation avec l'organisation plus globale du texte, témoignage 
de l'interaction entre le lexique et le discours. 



3.1. La réduction à la base du polymorphisme 

À travers le mécanisme de la réduction, une notion représentée par un terme com- 
plexe se trouve être dénommée par plusieurs unités qui partagent le même réfèrent 
dans un domaine de spécialité. Dans les textes examinés, nous avons trouvé diverses 
formes du terme complexe comme dans l'exemple qui suit : 

- terme plein : mode de production biologique ; 

- variante 1 : mode ; 

- variante 2 : mode de production ; 

- variante 3 : production biologique . 

Ainsi, certains termes complexes sont réalisés dans le même texte, sous trois 
formes différentes : 

- une forme que nous appellerons « pleine », par exemple mode de production 
biologique, 

- une forme réduite à la tête du terme, mode de production ou mode, 

- pour certains, une forme réduite à l'expansion du terme, e.g. production biolo- 
gique. 

La polymorphie désigne la coexistence de plusieurs formes possibles d'expression 
pour certains termes complexes. S'il y a réduction, c'est parce qu'il y a adaptation du 
producteur du texte aux nécessités du discours. Certaines de ces réductions procurent 
un réel bénéfice sur le plan sémantique, en permettant de condenser certaines infor- 
mations sur une seule occurrence. Par exemple le terme produit issu de l'agriculture 
biologique étant très long et peu économique, les usagers se sont tournés vers une 
forme abrégée qui puisse substituer le terme complexe dans le texte : produit biolo- 
gique. 

Telle qu'illustrée ci-dessus, la coexistence de diverses formes d'un terme complexe 
— une forme pleine et une ou plusieurs formes réduites — suscite deux questions es- 
sentielles. La première concerne la compréhension des facteurs de réduction et du mé- 
canisme à l'œuvre dans l'effacement des constituants majeurs d'un terme complexe ; 
il s'agit de comprendre pourquoi et comment, en un point donné du discours, l'auteur 
choisit plutôt une forme qu'une autre, et comprendre ce qui, dans le discours, l'auto- 
rise à user d'une forme dans laquelle toute l'information attachée au terme complexe 
n'est pas exprimée. Cela permet également d'expliquer ce qui rend possible et favorise 
l'effacement de constituants. La seconde question concerne les conséquences séman- 
tiques de l'effacement de constituants. L'enjeu est de dégager les facteurs propres au 
discours qui permettent de mieux comprendre la polymorphie des termes complexes. 
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3.2. La valeur des variantes réduites 

Le terme complexe et les variantes correspondantes donnent vie à des couples ré- 
dactionnels. Les variantes peuvent avoir différents degrés d'autonomie référentielle, 
selon leur charge sémantique par rapport au terme complexe en forme pleine. La 
charge sémantique d'une composante représente sa valeur informative à l'intérieur du 
terme : plus une composante est fondamentale pour la transmission du sens du terme 
complexe, moins elle subira l'effet de la réduction. La valeur informative d'une com- 
posante ne constitue pas le seul facteur qui influence sa chute potentielle. L'usage 
et son figement à l'intérieur d'une terminologie représentent d'autres facteurs qui 
peuvent être cause de réduction. Comme déjà anticipé, même les exigences textuelles 
peuvent être un facteur causant la réduction. 

Selon Guilbert IGUI 751 et Portelance [POR 89], nous observons que la réduction 
est un mécanisme qui supprime l'information non-différentielle, c'est-à-dire l'élément 
ou les éléments qui ne caractérisent plus le terme complexe. 

Le mécanisme de la réduction peut également être justifié par des raisons pragma- 
tiques : le facteur le plus incisif dans le cas de la réduction anaphorique est l'organi- 
sation du discours ; contrairement à cela, la réduction lexicale est influencée par des 
procédures lexicales qui donnent lieu a des unités terminologiques indépendantes. 

Nous pouvons déjà en déduire qu'il existe des conditions internes et externes aux 
termes complexes, et que celles-ci peuvent influencer leur évolution. Les conditions 
internes sont plutôt reliées aux caractéristiques du terme complexe et à sa structure, 
tandis que les condition externes subissent l'influence de l'environnement textuel, des 
caractéristiques de la langue de spécialité considérée et du degré de figement des 
termes complexes. 

Dans la section suivante, nous introduisons les deux types de réductions analysés 
dans notre étude. 



3.3. Les réductions anaphorique et lexicale 

En général, nous pouvons identifier différents types de processus de réduction qui 
peuvent être classés sur un continuum. Celui-ci est organisé selon les relations qui 
s'instaurent parmi les termes complexes en forme pleine et les variantes réduites, les 
composantes qui chutent et la valeur de la variante qui se forme. De toute façon, dans 
toutes les études OCOL 001 IJAC 031 IADE 021 ICAR 0311 de ce mécanisme, ce sont les 
réductions anaphorique et lexicale qui retiennent l'attention de la plupart des auteurs. 

La réduction anaphorique est un processus discursif et textuel, tandis que la ré- 
duction lexicale est générée par des conditions internes au syntagme plein (caracté- 
ristiques morphosyntaxiques, notionnelles, statut terminologique des constituants) ou 
par des conditions externes (niveau de spécialité du texte, typologie textuelle). Cette 
distinction est globalement acceptée, mais certains spécialistes utilisent des dénomina- 
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[...] Au niveau européen, les règlements (CEE) n° 2092/91 du 24 juin 1991 et (CE) n° 1804/99 du 19 
juillet 1999 définissent les règles du mode de production biologique et du contrôle des produits, le premier 
pour les végétaux et le second pour les produits animaux. Les organismes génétiquement modifiés (OGM) 
et produits dérivés sont exclus des modes de production biologique. 

Fin 2004, les surfaces en production biologique (déjà certifiées ou en conversion) s'élèvent à 535 

000 hectares, soit 1,9% de la surface agricole utilisée (SAU) française. [...] Ce mode de produc- 
tion touche environ 1 1 000 exploitations, ce qui correspond à la moitié des 25 000 exploitations et 

1 million d'hectares visé par le plan pluriannuel de développement de l'agriculture biologique, pré- 
senté en décembre 1997 par le ministre en charge de l'Agriculture. [...] L'implantation de ce mode 
d'exploitation est faible dans les zones de grandes cultures intensives du Bassin parisien. Ihttp: 
//www. stats . environnement . développement -durable . gouv. fr /données -essentielles/ 
act ivites-humaines/agriculture- et- environnement /l- agriculture- biologique .html l 

Le vin bio c'est le sang de la terre, différent d'un terroir à l'autre, sain, authentique, sans artifices. 
C'est un nectar qui célèbre la vie, c'est l'invité incontournable des dîners festifs entre amis. Pour ob- 
tenir du vin, le viticulteur qu'il soit en mode conventionnel ou en mode biologique doit cultiver sa 
vigne avant de vinifier son raisin. Nous allons vous exposer la spécificité du travail du viticulteur 
en mode viticulture biologique. [...] (http://www.terroirselect.info/territoires/Provence/ 
cultiver- vigne-mode-bio .html I 



[...] Il metodo di produzione biologico è disciplinato a livello comunitario dai reg. CE 2092/91 (nor- 
mativa base) e 1804/99 (disposizioni per le produzioni animali). L'Italia è il primo paese in Europa per 
numéro di aziende che applicano il metodo di produzione biologico. [...] (http : / /www . coldiretti . it/ 
anagribios/agr icoltura.htm) 

[...] L'agricoltura biologica è un metodo di produzione definito dal punto di vista legislativo a livello 
comunitario con un regolamento, il Regolamento CEE 2092/91, e a livello nazionale con il D.M. 220/95. [...] 
Ihttp : //www. aiab . it /index . php?option=com_content&view=article&id=112&Itemid=136 i 

[...] Parla di dati incoraggianti anche il sottosegretario aile Politiche agricole alimentari e forestali, Ste- 
fano Boco, che « dimostrano una significativa attenzione degli agricoltori verso il metodo biologico ». [...] 
Ihttp : //www. aiol . it/last_node/ articolo?page=863 l 

Figure 2 - Exemples de réductions dans leur contexte. 



tions différentes pour les mêmes notions. Par exemple Aler-Dewolw [ALB 84 1 parle 
d'« ellipses contextuelle et néonymique », Kocourek IK OC 9ll d'« ellipses contex- 
tuelle et lexicale », Jacques HJAC 961 définit les variantes comme « reprise anapho- 
rique » et « terme réduit sans antécédents textuels ». Dans cet article (ainsi que dans 
BLAV 1 11 ) nous avons choisi les termes de « réductions lexicale et anaphorique », qui 
nous semblent les plus transparents. 

Au niveau syntaxique phrastique et interphrastique, les variantes ont la même va- 
leur. Nous détectons, par contre, une différence au niveau interne de la structure du 
terme complexe : une variante lexicale peut s'avérer sous la forme d'un changement 
non linéaire de la structure de terme complexe (par exemple : mode de production 
biologique et mode biologique), tandis que la réduction anaphorique entraîne un chan- 
gement qui est toujours linéaire et qui détermine la chute des composants qui suivent 
la tête du terme complexe (par exemple degrado ambientale et degrado). 
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Afin de différencier les deux formes de réduction, IJAC 00 1 affirme que : 

- la réduction lexicale n'est pas liée au milieu contextuel immédiat, qu'elle est 
durable, qu'elle crée des variantes susceptibles de devenir des membres permanents 
de la terminologie du domaine, et qu'au niveau onomasiologique le syntagme plein 
est conservé même hors contexte ; 

- la réduction anaphorique a une valeur contextuelle, qu'elle se déroule au noyau- 
même du terme complexe, qu'elle a une valeur cohésive parmi les phrases d'un même 
texte et qu'au niveau onomasiologique, le syntagme plein est conservé uniquement en 
contexte. 

Pour mieux expliquer notre propos, voici quelques exemples (cf. fig.|2]) : 





Exemple italien 


Exemple français 


Terme 


metodo di produzione biologica 


mode de production biologique 


Syntagme 


[metodo] subs. + [di] prép. + 


[mode] subs. + [de] prép. + 


nominal plein 


[produzione] subs. + [biologica] adj. 


[production] subs. + [biologique] adj. 


Tête 


metodo 


mode 


Constituants 


di produzione biologica 


de production biologique 


Réduction 


metodo biologico 


mode biologique 


lexicale 






Réduction 


metodo di produzione 


mode de production 


anaphorique 


metodo 


mode 



Dans l'exemple italien, la tête du terme complexe reste liée à ses constituants dans 
le cas de la réduction lexicale ; par contre pour la réduction anaphorique la variante 
a seulement une valeur de cohésion anaphorique, alors que la tête détient une charge 
sémantique supérieure. 

À travers ce type d'analyse, on définit un critère fonctionnel : la variante lexica- 
lement réduite sert également comme connecteur textuel, mais elle ne se limite pas à 
cette fonction. 

Du point de vue onomasiologique, la différence entre les deux formes de réduction 
réside dans le sens transmis aux variantes : dans le cas de la réduction lexicale, la va- 
riante n'est pas un hyperonyme pur du terme complexe, mais elle en conserve la valeur 
onomasiologique; au contraire, la variante anaphorique représente F hyperonyme du 
terme complexe, donc sur le plan onomasiologique elle a moins d' intension et surtout 
est étroitement liée au contexte. Exemple : 



Terme 


logo comunitario di controllo CEE 


Syntagme 


[logo] subj. + [comunitario] adj. + [di] prép. + 


nominal plein 


[controllo] subj. + [CEE] acronyme/subst. 


Tête 


logo 


Constituants 


comunitario di controllo CEE 


Réduction 


logo di controllo CEE, 


lexicale 


ou logo CEE (relation non hyperonymique) 


Réduction 


logo (hyperonyme) 


anaphorique 
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Sur le plan formel, on peut dire que la réduction anaphorique permet seulement 
l'élision des constituants — par contre la réduction lexicale permet la suppression de 
la tête, des constituants, des éléments forts et faibles. Exemple : 



Terme 


agricoltura biologica 


Syntagme nominal plein 


[agricoltura] subst. + [biologica] adj. 


Tête 


agricoltura 


Constituants 


biologica 


Réduction lexicale 


il biologico 


Réduction anaphorique 


agricoltura 



On a donc enregistré une élision du constituant, dans le premier cas, et de la tête, 
dans le deuxième exemple. La variante lexicale, qui détient une charge sémantique 
supérieure par rapport à la variante anaphorique, peut substituer le terme complexe 
dans les textes, avec un risque très réduit d'ambiguïté 

Sur le plan sémantique, il y a également des différences. La variante lexicale est 
caractérisée par une cohésion intérieure plus forte par rapport au syntagme plein. 

Par exemple, le syntagme audit environnemental se transforme en audit : il y a 
donc suppression de la cohésion interne du terme complexe. Mais, en cas de réduction 
lexicale, le comportement est à l'opposé : à cause de l'élimination des constituants, la 
variante a une cohésion interne réduite, voire parfois annulée. 

Ainsi, par exemple, la variante lexicale metodo biologico du terme complexe me- 
todo diproduzione biologico a une cohésion interne plus forte, le signifié dans la forme 
réduite étant distribué parmi les constituants de la variante, qui sont donc plus cohésifs 
et ont plus de valeur. Le signifié de la forme pleine est distribué dans tous les éléments 
du syntagme. 

En général, on peut affirmer qu'entre les variantes anaphoriques et les termes com- 
plexes, il s'instaure des relations de type hyperonymique, et entre les variantes lexi- 
cales et les termes complexes des relations synonymiques, bien que ces variantes ne 
soient pas de véritables synonymes. 

3.4. Réductions anaphorique et lexicale dans le discours 

Selon le domaine, le mécanisme de réduction peut se manifester de différentes ma- 
nières. La réduction anaphorique ne subit pas l'influence du domaine, vu qu'il s'agit 
d'un phénomène intratextuel lié aux caractéristiques du texte. En revanche, la réduc- 
tion lexicale est influencée par le domaine. Plus un domaine est technique et plus il sera 
caractérisé par une évolution rapide de la terminologie qui peut produire |DUR 10] : 

1) l'effacement de certains éléments n'ayant plus une fonction différentielle dans 
un terme complexe ; 

2) l'ajout d'éléments aux termes déjà existants ; 

3) la disparition des termes. 
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Dans le premier cas, nous retrouvons le mécanisme de la réduction. Par contre, l'ex- 
pansion des termes complexes peut, elle aussi, et dans un deuxième temps, déterminer 
la réduction, si la linéarité du terme complexe change pour des raisons d'économicité. 
Cette dernière affirmation est reliée au concept de série syntagmatique : pour chaque 
terme de la série qui enregistre un ajout d'information à travers l'expansion de sa 
structure, nous pouvons constater l'effacement d'un composant devenant implicite et 
d'apport non différentiel. 

Ce mécanisme de réduction assez fréquent s'appuie sur le principe de redondance 
et s'apparente à l'apocope en langue parlée IIPOR 9 1 1 p. 103]. 

En plus, un domaine à haut degré de réduction est normalement caractérisé par des 
lexiques composés surtout par des termes complexes, et donc plus sensibles à subir 
des mécanismes comme la réduction qui sont enchaînés dans des séries. Dans ses tra- 
vaux, Portelance [POR 89l IPOR 9 H IPOR 961 décrit cette tendance des terminologies 
dans les domaines techniques, en justifiant la chute des éléments qui ont cessé d'être 
différentiels pour éviter leur redondance. Ce type de chute est à la base de la réduc- 
tion lexicale dans le domaine technique. La réduction anaphorique dans les domaines 
techniques ne permet normalement pas l'évolution d'une langue de spécialité puisque 
les variantes anaphoriques ne sont pas indépendantes. 



4. Autour de la définition des corpus 

4.1. Les langues de spécialité et les discours de spécialité 

Si la langue de spécialité est perçue comme une variété de la langue générale 
BPRA 061 . la variation des langues de spécialité est soumise aux mêmes critères que 
la langue générale (variations diachroniques, diatopiques et diastratiques). Nous pou- 
vons retrouver d'autres facteurs de variation qui influencent également la communica- 
tion spécialisée, comme la situation de communication, les intentions et les buts de la 
communication. Ceux-ci conditionnent les ressources syntaxiques, morphologiques 
et textuelles utilisées dans les textes spécialisés (types de phrases, formes verbales, 
articulateurs du discours, etc.) |DES 01 ]. 

Quand nous nous référons aux langues de spécialité, il est important de ne pas 
confondre le concept de discours avec celui de texte ou énoncé. Le discours se défi- 
nit comme le produit des multiples pratiques discursives à l 'œuvre dans la vie sociale 
BDES OU p. 8]. Il ne peut pas être dissocié du contexte socio-culturel auquel il s'in- 
sère. L'énoncé représente sa manifestation ponctuelle, un objet concret et observable. 
Le texte enfin se réfère au modèle abstrait selon lequel s 'organisent les énoncés. 

Les textes peuvent être classés selon des critères permettant d'identifier les niveaux 
suivants : 

1) niveau fonctionnel (fonctions textuelles) ; 
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2) niveau situationnel (contexte social des activités communicatives, lieu, temps, 
nombre, rôle et relations entre les locuteurs) ; 

3) niveau du contenu sémantique (sujet d'un texte, différentes perspectives et dé- 
veloppement thématique) ; 

4) niveau formel-grammatical (formes linguistiques et non linguistiques, aspects 
grammaticaux, ressources syntaxiques et lexicales) [DES UT) . 

Les critères que nous venons de citer se distinguent en : 

- critères internes, qui concernent directement la structure du texte ; 

- critères externes, qui considèrent la contexte où se situe le texte. 

Le contexte est caractérisé par la situation communicative, l'émetteur, le destinataire 
et les typologies textuelles. 

Un autre concept important à définir est celui de domaine, seule façon de délimiter, 
de dénommer une structure cognitive, conceptuelle |BES 00, p. 187]. 

Notre projet se base sur deux approches différentes des corpus : d'une part, l'ana- 
lyse linguistique du phénomène de la réduction s'appuie sur une étude des corpus qui 
ont été constitués ad hoc, donc selon une approche corpus-based; d'autre part, la va- 
lidation expérimentale est basée sur des corpus ayant été constitués en vue, non pas 
de l'analyse de la réduction, mais de la validation des conclusions tirées de l'étude 
linguistique, donc selon une approche corpus-driven [CON 05b |. 

En parlant de corpus, nous désignons l'aspect normatif de la langue, notamment sa 
structure et son code. Le corpus regroupe un ensemble de textes ayant une visée com- 
mune. Les catégories des textes contenus dans un corpus peuvent être différentes, mais 
normalement elles partagent un objectif commun. Les critères que nous considérons 
comme les plus pertinents pour classer les textes dans un corpus sont : le sujet, la pers- 
pective d'énonciation, le niveau de spécialisation, les sources, la typologie textuelle, 
la langue. 



4.2. Les typologies textuelles 

Le mécanisme de réduction anaphorique dépend des caractéristiques du texte dans 
lequel le terme est inséré. En général, nous pouvons relier ce mécanisme au classement 
des typologies textuelles de Sabatini |SAB 991 ILAV ÎTI . Plus un texte est contraignant 
et plus évidente sera la tendance de la terminologie à rester figée, comme nous le 
montrerons en section [5] 

Cette classification est inspirée de celle de Desmet [DES 06] et vise à créer 
des typologies textuelles homogènes qui puissent être utilisées dans les mêmes si- 
tuations communicatives. Celles-ci, étant ciblées en langue de spécialité, imposent 
des contraintes qui peuvent concerner le niveau situationnel influencé par les activités 
communicatives, lieu, temps, nombre, rôle des locuteurs et relations entre eux. 
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Dans notre cas, les textes ont été classés selon des contraintes prenant en compte 
le niveau situationnel de la communication mais aussi le contexte linguistique et le 
microcontexte (densité de termes, structure du texte). 

Dans notre étude, nous avons traité les domaines indiqués dans le tableau[T] : 



Domaine 


Réduction lexicale 


Réduction anaphorique 


espaces naturels 


oui 


oui 


médécine vétérinaire 


non 


oui 


cancer 


non 


oui 


emballages 


oui 


non 


philosophie 


oui 


non 



Tableau 1 - Les domaines traités et les types de réduction étudiés. 



Pour chaque domaine, nous avons créé des corpus de référence, à partir du contenu 
textuel de revues spécialisées du domaine. 

Pour ce qui concerne la réduction anaphorique, nous avons basé notre étude contras- 
tive sur des textes tirés du Web et subdivisés dans des catégories textuelles qui se 
basent sur la classification suivante : 

- catégorie 1 : discours de vulgarisation et de semivulgarisation scientifique ou 
technique. Par exemple, articles tirés des journaux généraux, brochures, sites Web 
non spécialisés ; 

- catégorie 2 : discours scientifique ou technique à des fins pédagogiques. Par 
exemples textes universitaires, textes destinés aux experts des domaines pour la veille 
technologique et scientifique ; 

- catégorie 3 : discours scientifique ou technique spécialisé et/ou officiel, discours 
législatif. Par exemple, lois qui règlent les domaines, articles scientifiques. 



4.3. Statistique descriptive du comportement des termes complexes 

Plusieurs auteurs se sont intéressés à l'extraction de termes complexes dans les 
langues de spécialité IIDAI 961 IFRA 981 IJAC OU ISAN 021 INGO 081 . La réduction, 
en tant que cas particulier de la variation, a également été étudiée BJAC 991 IDAI 031 
INEN041 . 

En marge de ces importants travaux, souvent liés à des développements d'outils 
d'extraction, il y a eu quelques études statistiques du comportement des termes, por- 
tant surtout sur la performance des outils [DAI 98 PAZ 05 1. 

Dans cet article nous nous intéressons spécifiquement au phénomène de réduction 
des termes complexes, notamment, nous visons à contribuer, par une meilleure com- 
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préhension du comportement des termes complexes, à l'optimisation des systèmes 
d'extraction de termes, de l'analyse sémantique et de la traduction automatique. 

Notamment, nous avons distingué : 

1) une phase concernant l'extraction automatique des termes complexes des textes 
de spécialité ; 

2) une phase concernant la validation expérimentale des hypothèses qui sont dé- 
crites dans le chapitre précédent. 

Les deux approches utilisent les mêmes protocoles qui visent des objectifs communs. 

Pour ce qui concerne l'extraction automatique des termes, nous nous sommes ser- 
vis du logiciel Acabit. Cette validation empirique ne pouvait s'appuyer que sur des 
corpus créés ad hoc, au risque de montrer les hypothèses de départ sans mettre en 
évidence d'éventuelles contre-hypothèses. Pour éviter cela, et afin de vérifier ultérieu- 
rement les axiomes de départ, nous avons également décidé d'élaborer d'autres corpus 
qui se référaient à d'autres langues de spécialité. 

Dans le cas de la réduction anaphorique, nous avons constitué des corpus d'ap- 
prentissage d'où nous avons extrait les termes à travers Acabit. Après avoir obtenu les 
listes de termes complexes associés à leurs variantes éventuelles, nous avons lancé des 
requêtes sur Internet pour retrouver d'autres textes. A ce stade, nous avons contacté 
des experts afin de procéder à la validation des listes des termes complexes et des va- 
riantes. La collaboration avec les experts s'est avérée fondamentale pour arriver à des 
conclusions sur les cas ambigus où les variantes anaphoriques pouvaient être confon- 
dues avec des hyperonymes du terme complexe. 

En outre, pendant que les experts se concentraient sur la désambiguïsion des va- 
riantes, nous avons créé un instrument pour la catégorisation des textes. Cette plate- 
forme informatique présente les textes classés selon le terme complexe détecté par 
Acabit suivi d'une série de variantes éventuelles. Dans le cas de la réduction lexicale, 
le premier problème que nous avons rencontré concernait les typologies de termes 
complexes qu'il fallait traiter pour la validation des résultats. Nous avons décidé de 
traiter des termes complexes composés d'au moins 3 composants, considérés comme 
pertinents dans le cadre de notre étude. 

Dans ce cas, les experts ont été contactés, en premier lieu, pour la confirmation des 
relations réductionnelles entre les termes complexes et les variantes détéctées, comme 
pour la réduction anaphorique. Ensuite, leur avis a été nécessaire pour une évaluation 
des composants qui subissaient le mécanisme de réduction. Cette deuxième probléma- 
tique dérivait de l'analyse des langues de spécialité moins techniques, notamment par 
les composants adverbiaux. Leur effacement ne détermine pas de réduction, puisque 
la présence des adverbes détient une fonction de modulation de la valeur sémantique 
exprimée. Leur chute change l'inténsité du concept exprimé, par exemple dimensione 
propriamente etica et dimensione etica. 
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Concernant le choix des experts des domaines, nous nous sommes adressés à des 
experts différents selon la spécialité. Pour ce qui concerne le domaine des espaces 
naturels, nous avons contacté des organismes de recherche responsables de la base 
de données multilingue concernant les réseaux naturels transalpins. Pour le domaine 
vétérinaire, nous nous sommes adressés aux organismes de contrôles des activités agri- 
coles biologiques, notamment ceux qui évaluent les élevages. Ces organismes avaient 
déjà été consultés dans le cadre d'un projet concernant un glossaire multilingue sur les 
activités biologiques. Ils ont cumulé une expérience décennale dans l'évaluation des 
entreprises du domaine au niveau européen. 

Pour ce qui concerne l'évaluation des termes appartenant au domaine de la philo- 
sophie, nous avons contacté des chercheurs universitaires qui participent activement à 
la recherche dans les domaines spécialisés en philosophie et sciences humaines. 

Enfin, dans le cadre de la médicine, nous avons collaboré avec les associations de 
divulgation de l'information en médicine citées dans les sources consultées pour la 
création de nos corpus. D'autre part, dans le cas des emballages, nous avons contacté 
les entreprises citées dans les revues prises en considération dans nos corpus pour 
avoir leur avis sur la terminologie utilisée. 

5. La réduction anaphorique 

5.1. Hypothèses 

Les hypothèses que nous avons décidé de valider au niveau informatique sont le 
résultat de réflexions concernant les facteurs qui nous venons de décrire au niveau 
linguistique. Ainsi, nous formulons les hypothèses suivantes : 

(1) La réduction anaphorique est corrélée avec le type de discours, selon la clas- 
sification donnée ci-dessus. En particulier, elle est plus présente dans les textes de 
catégorie 1, moins présente dans ceux de catégorie 2, quasi-absente dans ceux de 
catégorie 3. 

(2) La propriété (1) est indépendante du domaine et de la langue. 

(3) S'agissant d'un phénomène anaphorique, dans un document les formes pleines 
ont tendance à apparaître avant les formes réduites (qui se réfèrent à elles). 

5.2. Validation expérimentale 

5.2.1. Protocole utilisé 

La première hypothèse est liée à des propriétés internes au texte. Pour la valider 
nous avons étudié les occurrences d'un certain nombre de termes complexes et de 
leurs réductions anaphoriques dans un corpus composé de documents tirés du Web. 

Voici les cinq étapes du protocole utilisé (cf. fig. [3} : 
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français 



Corpus 




TreeTagger 
français 



Flemm 
(lemmatisation) 



TreeTagger 
italien 



Ajout de genre 




Script d'envoi de 
requêtes HTTP 



Liste de 
termes 



Interface de validation 



Acabit (extraction 
de termes 
complexes) 



Nettoyage, 
extraction de 
corcondance 



Base de 
données 



Figure 3 - Le protocole utilisé pour la validation des hypothèses de réduction anapho- 
rique. 



1) choix de termes complexes dans un domaine précis de langue de spécialité 
(cf. ; 

2) récupération des documents contenant la forme pleine de chaque terme 
(cf.g±3); 

3) extraction des formes pleines ainsi que réduites (potentielles) des termes dans 
ces documents ; 

4) validation par un expert de l'appartenance de chaque document au domaine, et 
balisage des formes réduites relevant de la réduction anaphorique ; 

5) calculs. 

Les experts ont été sélectionnés selon les domaines de spécialité. Leur contribution 
a été assistée par des terminologues qui pouvaient resourdre les problèmes au niveau 
épistémologique. 



5.2.2. Choix des termes complexes 



Pour obtenir une liste pertinente de termes complexes dans des domaines donnés 
(point 1 du protocole), nous avons choisi comme point de départ le contenu textuel de 
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Corpus 


Langue 


Années 


Taille en Mo 


Bulletin du cancer 

Journal vétérinaire vet.journal 

Espaces naturels 

Parchi 


français 
italien 

français 
italien 


1997-2010 
2003-2010 
2003-2009 
1990-2009 


43,02 Mo 
11,41 Mo 
5,49 Mo 
18 Mo 



Tableau 2 - Les revues spécialisées utilisées comme point de départ pour obtenir des 
listes de termes complexes pour chaque domaine. 

tion de termes complexes a été faite par le logiciel Acabit BDAI 9611 après balisage POS 
par TreeTagger et lemmatisation par Flemm (pour le français uniquement). Ces deux 
logiciels ne fournissant pas l'information du genre des noms, nous avons complété la 
chaîne de traitement en nous servant de ressources lexicale^jpour introduire cette in- 
formation, qui améliore l'extraction de termes complexes en permettant la vérification 
de l'accord en genre. 

5.2.3. Récupération des documents Web contenant les termes 

Le moteur de recherche Google n'autorisant pas la récupération de plus de 64 
URL par requête, nous nous sommes tournés vers la plate-forme Yahoo BOSS, qui 
ne pose pas de limite sur le nombre de requêtes. Pour chaque requête Web, Yahoo 
retourne les mille premières URL, par ordre de pertinence. Nous avons récupéré tous 
les documents proposés par Yahoo, qui étaient récupérables et de format HTML, PDF 
ou texte brut, cf. tableau [3] Dans les chiffres ci -dessus, nous entendons par « taille 



Domaine 


Langue 


Nb doc, dont : 


HTML 


PDF 


TXT 


Taille totale 


Vétérinaire 


italien 


14183 


10420 


3 743 


20 


387 Mo 


Cancer 


français 


20790 


13 627 


7124 


39 


647 Mo 


Parcs nationaux 


italien 


38 502 


28 253 


10226 


23 


1,15 Go 


Parcs nationaux 


français 


18 200 


13 840 


4 328 


32 


849 Mo 



Tableau 3 - Les documents récupérés sur le Web. 
totale » celle des contenus textuels bruts obtenus après conversion et/ou nettoyage. 

2. Bulletin du cancer |http: //www, john-libbey-eurotext . f r/f r/revues/medecine/ 
bdc/sommaire .md ISSN 1769-6917; Vet.journal http://www.evsrl.it/vet.journal/ 
sans ISSN; Espaces naturels http://www.espaces-naturels.fr/a_la_une/la_revue_ 



espaces_naturels, ISSN 1637-9896; Parchi http://www.parks.it/federparchi/ 
rivista/ sans ISSN 



3. Lexique 3 pour le français (http: //www. lexique . org/i, Morph-it ! pour l'italien (http: 



//dev . sslmit .unibo . it/linguistics/morph- it .php). 
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5.3. Extraction des termes et validation par un expert 

Par le biais d'une interface Web spéciale, reliée à une base MySQL, des experts 
ont pu (a) valider l'appartenance effective de chaque document au domaine donné, 

(b) indiquer le type du document (1 = vulgarisation, 2 = pédagogique, 3 = spécialisé) 

(c) vérifier les conditions de forme pleine ou de forme réduite anaphorique de chaque 
terme complexe observé. 

5.3.1. Arbre anaphorique d'un terme complexe 

Soit T = (c*) un texte (où c* sont des caractères), t* les occurrences de la forme 
pleine d'un terme complexe dans T, et r + celles des différentes formes réduites du 
même terme. L'ordre linéaire des caractères du texte induit un ordre des et des r*. 

Notons X) . . . , ri t7li les formes réduites placées entre les formes pleines ti et ti+x 
(ou entre ti et la fin du document). Dans le cas où il n'y a pas de tel r*, on dira que 
rii = 0. Soit pos : T — > N la fonction qui associe à chaque mot sa « position » dans le 
texte (on compte le nombre de caractères depuis le début du fichier). 

Dans T il peut y avoir également des formes réduites r'^ placées avant la première 
forme pleine (c'est-à-dire telles que pos(r^) < pos(ii)). Celles-ci sont appelées ré- 
ductions cataphoriques et on notera r'j la j-ème réduction cataphorique de la forme 
pleine t\ (pour les autres t{ on considère, dans ce modèl^] que l'on n'a que des ré- 
ductions anaphoriques). 

Les occurrences t*, r*,* et forment une structure d'arbre ordonné et pondéré 
par la fonction pos (cf. fig. que nous appelons arbre anaphorique du terme t. 

Pour étudier cette structure et en tirer des renseignements sur le comportement des 
réductions anaphoriques de T, nous allons nous intéresser à deux types de quantités : 

1) des quantités relatives à la structure de l'arbre : 

a) d m , le degré moyen des nœuds ij, 

b) gL, le nombre de réductions cataphoriques, 

c) /, la moyenne des /j = #{tj,t j+1 , . . . ,t k | > 0,d(t t ) 

pour i < l < k et > 0} (où d est le degré), c'est-à-dire le nombre de formes 
pleines consécutives entre deux formes réduites ; 

2) des quantités relatives à la pondération de l'arbre : 

a) ô, la moyenne des Si = pos(r i ) x)— pos(tj), c'est-à-dire la distance moyenne 
entre une forme pleine et sa première réduction anaphorique, 



4. On peut imaginer d'autres modélisations de ce phénomène. Ainsi, par exemple, on pour- 
rait « attacher » chaque réduction à la forme pleine la plus proche, que ce soit avant ou après 
elle. On aurait alors des réductions anaphoriques et cataphoriques dans tout le document. Dans 
cet article, nous avons choisi de n'avoir de réduction cataphorique qu'avant la première forme 
pleine. Cf. aussi §171 point 4. 
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Figure 4 - L'arbre des réductions anaphoriques et cataphoriques d'un terme t dont les 
t* (resp. r* », r») sont des occurrences de forme pleine (resp. de forme réduite). 



b) A, la moyenne des A$ = pos(ri „.) — pos(tj), c'est-à-dire la distance 
moyenne entre une forme pleine et la dernière réduction anaphorique avant la pro- 
chaine forme pleine ou avant la fin du fichier, 

c) S- = pos(ti) — pos(r' m ), c'est-à-dire la distance entre la dernière réduction 
cataphorique et la première forme pleine, 

d) A_ = pos(ti) — pos(r' 1 ), c'est-à-dire la distance la première réduction 
cataphorique et la première forme pleine ; 

Le scénario suivant fournit une interprétation possible de ces quantités : après avoir 
écrit (en moyenne) / formes pleines, l'auteur se sert (en moyenne) de d m formes 
réduites, dont la première arrive (en moyenne) à S caractères après la dernière forme 
pleine. Éloigné de A caractères (en moyenne) de la forme pleine, il considère que 
l'ambiguïté est devenue trop forte, il revient à la forme pleine, et le cycle reprend. 

De même, pour le cas cataphorique, l'auteur écrit en moyenne d- formes réduites 
cataphoriques avant la première forme pleine, qui est à une distance de A_ caractères 
de la première et de <5_ caractères de la dernière forme cataphorique. 

5.3.2. Première et deuxième hypothèses 

Notre première hypothèse stipule que la quantité et le comportement des réduc- 
tions anaphoriques et cataphoriques dépendent de la typologie de texte. Nous avons 
classé les documents en trois catégories (vulgarisation / pédagogique / spécialisé). Le 
lecteur trouvera dans le tableaujïjles moyennes 5, A, d m , 5- , Â_ , d— , / de S, A, d m , 
6-, A_, eL_ et / pour chacun des quatre corpus, ventilés par typologie de texte. 



20 TAL 52/1 





Vétérinaire (italien) 


Cancer (français) 




vulg. 


pédag. 


spécial. 


vulg. 


pédag. 


spécial. 


FP 


3.20 


4.09 


5.16 


4.97 


10.96 


11.66 


ANA/FP 


0.8 


0.56 


0.06 


0.79 


0.7 


0.25 


CATA/FP 


0.13 


0.01 


0.00 


0.12 


0.02 


0.00 


S 


3297.16 


2074.05 


3762.68 


1917.76 


2158.51 


8118.12 


A 


6579.31 


6797.56 


4673.45 


4485.39 


10484.02 


22292.91 


d m 


2.58 


2.89 


1.57 


2.23 


3.17 


5.85 


S- 


2129.82 


688.67 


NA 


3043.83 


1022.45 


NA 


A- 


2805.29 


688.67 


NA 


6673.67 


4907.64 


NA 


d- 


1.75 


1.00 


NA 


1.50 


1.73 


NA 


f 


1.75 


2.42 


3.39 


1.72 


1.99 


7.38 





Parcs (italien) 


Parcs (français) 




vulg. 


pédag. 


spécial. 


vulg. 


pédag. 


spécial. 


FP 


4.58 


10.62 


12.04 


17.89 


35.75 


52.81 


ANA/FP 


0.73 


0.55 


0.19 


1.03 


0.50 


0.17 


CATA/FP 


1.05 


0.34 


0.04 


3.56 


0.98 


0.13 


8 


5233.06 


2293.71 


849.67 


1773.01 


972.44 


993.31 


A 


7499.35 


2832.36 


10789.33 


5964.44 


1553.90 


3817.10 


dm 


2.42 


1.93 


3.33 


3.78 


1.24 


2.33 


5- 


1896.54 


9931.29 


2433.00 


3340.20 


NA 


NA 


A- 


5216.58 


13449.50 


4811.00 


13454.80 


NA 


NA 


d- 


3.46 


1.71 


3.00 


5.40 


NA 


NA 


I 


2.41 


3.81 


3.17 


3.35 


3.47 


7.25 



Tableau 4 - Résultats de l'analyse des documents récupérés sur le Web. FP, ANA et 
CATA sont les nombres moyens de formes pleines (resp. anaphoriques, cataphoriques) 
par 100 ko de texte, et ANA/FP et CATA/FP les ratios entre formes anaphoriques (resp. 
cataphoriques) et formes pleines. NA signifie que la donnée n'est pas calculable, faute 
de cas attestés dans les corpus. 



De ces tableaux nous tirons les conclusions suivantes : 

1) comme le montre la ligne FP, la densité de formes pleines est croissante lorsque 
le niveau de contrainte augmente (en allant de la vulgarisation au texte scientifique 
spécialisé). En effet, un texte scientifique évitera l'ambiguïté en favorisant les formes 
pleines, au détriment de l'économie ; 

2) les lignes ANA/FP et CATA/FP montrent clairement que le nombre de réduc- 
tions baisse lorsque l'on passe de la catégorie 1 aux catégories 2 et 3. C'est ainsi qu'est 
démontrée la première hypothèse ; 

3) ce comportement est similaire dans les quatre corpus, appartenant à des do- 
maines et à des langues différents, ce qui confirme la deuxième hypothèse ; 

4) en ce qui concerne les autres paramètres, on ne peut en tirer aucune conclusion, 
puisqu'on ne constate aucune régularité significative. 



Vétérinaire (italien) 




12 3 4 

log(formes pleines / 100 ko) 
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Cancer (français) 




1 2 3 4 5 

logfformes pleines / 100 ko) 



Parcs (italien) Parcs (français) 




0123456 0123456 
log(formes pleines / 100 ko) log(formes pleines / 100 ko) 



Figure 5 - Distribution des documents selon le rapport formes pleines / formes ré- 
duites. Les symboles dénotent les trois catégories de texte : carré = cat. 1, cercle = cat. 
2, triangle = cat. 3. Les courbes sont des régressions polynomiales LOWESS : courbe 
continue = cat. 1, tiretée = cat. 2, pointillée = cat. 3. 



Dans la suite, nous allons raisonner au niveau des documents. 

La fig. [5] montre la distribution des documents selon le rapport formes réduites 
/ formes pleines. Les courbes tracées sont des régressions polynomiales des points, 
selon l'algorithme LOWESS |CLE 81 1. Elles confirment le fait que l'on a plus de ré- 
ductions anaphoriques en catégorie 1 (vulgarisation) qu'en catégorie 2 (scient, pédag.) 
que 3 (scient, spécialisé). 

Nous constatons également une différence entre les textes français et italiens. Dans 
le premier cas on remarque un meilleur regroupement : il y a moins de dispersion 
pour les cat. 1 et 2 et la cat. 3 se trouve plutôt sous la courbe de la cat. 1. Dans le 
cas italien, il y a beaucoup plus de dispersion et aucun regroupement n'est possible. 
On peut en déduire que la langue italienne est terminologiquement moins stable que 
la langue française : les termes italiens sont moins figés et leur comportement est plus 
chaotique, l'alternance entre forme complète et forme réduite a tendance à ne pas 
suivre un schéma régulier. En français, par contre, on trouve que les termes sont plus 
réguliers. 
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5.3.3. Troisième hypothèse 

Notre troisième hypothèse peut être reformulée de la manière suivante : il existe 
moins de documents avec au moins une réduction cataphorique que de documents 
avec au moins une réduction anaphorique mais sans aucune réduction cataphorique. 

Cette version de l'hypothèse se vérifie aisément à partir de nos données (toutes 
catégories de texte confondues), cf. tableau[5] 



Domaine 


Langue 


RA 


RCA 


Vétérinaire 


italien 


37,47% 


7,00% 


Cancer 


français 


11,9% 


1,49% 


Parcs 


italien 


48,48% 


4,71% 


Parcs 


français 


40,95% 


4,76% 



Tableau 5 - Présence de réductions anaphoriques et cataphoriques dans les documents. 
La colonne RA (resp. RCA) représente les pourcentages de documents avec au moins 
une réduction anaphorique (resp. cataphorique). 



6. La réduction lexicale 

6.1. Hypothèses 

Nous formulons les hypothèses suivantes : 

(1) La réduction lexicale dépend du domaine, et est plus fréquente dans les do- 
maines techniques à évolution rapide. 

(2) Elle résulte de l'inutilité progressive d'un composant et peut aboutir à une lexi- 
calisation à part entière de la forme réduite. Dans ce cas, on peut observer un « cycle 
de vie » de la forme réduite : naissance, mise en concurrence avec la forme pleine, 
remplacement de la forme pleine. 

Pour le point (2), nous nous sommes inspirés des articles de Dury & Drouin sur la 
nécrologie des termes HDUR 1011 et de M0ller |M0 L98) sur la terminochronie. 

Dans cette section, nous appelerons « termes 3-complexes », les termes dont les 
composants sont formés de plus de deux mots. 

6.2. Validation expérimentale 

Contrairement à la réduction anaphorique qui est interne au texte, la réduction 
lexicale est un mécanisme discursif. Il est donc important d'utiliser des corpus thé- 
matiquement stables pour l'étudier. D'ailleurs, la confirmation ou infirmation de la 
deuxième hypothèse nécessite une datation précise des données textuelles. Ainsi, plu- 
tôt que de récupérer des documents arbitraires du Web contenant la forme pleine et 
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Revue 


Domaine 


Langue 


Années 


Volume 


Klësis 


philosophie 


français 


2006-2010 


7,25 Mo 


Dialegesthai 


philosophie 


italien 


1999-2010 


19,43 Mo 


Emballages Magazine 


emballages 


français 


2002-2009 


1,16 Mo 


Italia lmballaggio 


emballages 


italien 


2002-2007 


14,05 Mo 


Espaces naturels 


parcs 


français 


2003-2009 


5,49 Mo 


Parchi 


parcs 


italien 


1990-2009 


18 Mo 



Tableau 6 - Liste comparative des revues utilisées pour l'étude de la réduction lexicale. 



des éventuelles formes réduites, nous avons choisi de travailler sur des corpus plus 
« conventionnels » : nous avons étudié le contenu textuel des six revues spécialisées, 
dans les domaines suivants : les techniques d'emballage, les parcs nationaux et la phi- 
losophie (qui nous servira de contre-exemple puisqu'elle est F antithèse-même d'un 
domaine « technique à évolution rapide »). 

Le lecteur trouvera dans le tableaujôjla liste comparative des revue^jconsidérées. 
Voici les étapes du protocole utilisé : 



1) extraction des termes 3-complexes à l'aide du logiciel Acabit (cf. § 5.2.2 1 ; 

2) obtention des formes réduites lexicales potentielles par transformation des 
formes pleines (ABC^AC, ABCD— s-ABD, ABCD— s-ACD, etc.) ; 

3) analyse de la distribution des occurrences des formes pleines du (1) et des 
formes réduites lexicales du (2) dans le corpus, en tenant compte de leur datation 
et de leurs positions dans les documents. 



6.2.1. Extraction des termes 3-complexes 

Le nombre de termes 3-complexes varie énormément d'un corpus à l'autre. Nous 
n'avons pas tenu compte des termes complexes de la forme «nom adverbe adjec- 
tifs) ». Ceux-ci ne sont pas pertinents pour notre étude puisque l'adverbe en modifie 
le sens. Ainsi, la variation qui consiste à omettre l'adverbe ne constitue pas une forme 
réduite lexicale du terme, puisque elle ne renvoie pas au même concept. 

Le nombre de termes 3-complexes ainsi obtenus, trié par corpus, est donné dans 
le tableau [7] Nous constatons dans le tableau [7] que le nombre de formes pleines et 
réduites n'est pas directement corrélé avec le nombre d'occurrences de celles-ci dans 
le corpus : ainsi, dans Parchi, on a 24953 occurrences des 52 formes réduites attes- 



5. Klësis http://www.revue-klesis.org/, ISSN 1954-3050; Dialegesthai http:// 
mondodomani.org/dialegesthai/, ISSN 1128-5478; Espaces naturels http://www. 
espaces-naturels . f r/ a_la_une/la_revue_espaces_naturels ISSN 1637-9896 ; Par- 
chi http://www.parks.it/federparchi/rivista/, sans ISSN; Emballages Magazine 
http://www.industrie.com/emballage/, ISSN 0013-6573; Italia lmballaggio http: 
//www. italiaimballaggio . it/italiaimballaggio/05_00/ index .html , ISSN 2037- 
2183. 
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Revue 


t 


r 


Occurrences t 


Occurrences r 


Klësis 


2 


3 


3 


72 


Dialegesthai 


6 


6 


12 


293 


Emballages Magazine 


33 


15 


93 


111 


ltalia lmballaggio 


127 


96 


218 


2015 


Espaces naturels 


51 


45 


209 


1576 


Parchi 


88 


52 


1829 


24953 



Tableau 7 - Termes 3-complexes obtenus selon le corpus, t, r dénotent, resp., le 
nombre de termes complexes distincts obtenus (étape 1) et celui de formes réduites 
(étape 2) attestées dans le corpus. D'autre part « Occurrences t » (resp. « Occurrences 
r ») dénotent le nombre d'occurrences de formes pleines (resp. réduites) dans le cor- 
pus. 

tées, alors que dans ltalia lmballaggio on a presque deux fois plus de formes réduites 
attestées (96), avec douze fois moins d'occurrences (2 015). 



Klësis Emballages Magazine Espaces naturels 




2007.5 2008.5 2009.5 2010.5 2004 2006 2008 2010 2003 2005 2007 2009 

Années Années Années 



Dialegesthai ltalia lmballaggio Parchi 




2000 2002 2004 2006 2008 2010 2002 2003 2004 2005 2006 2007 1990 1995 2000 2005 2010 

Années Années Années 



Figure 6 - Densité des formes pleines (courbe pointillée) et réduites (courbe continue) 
en fonction du temps. 

Sur la fig. [6] on présente la densité des formes pleines (courbe bleue pointillée) 
et réduites (courbe continue) en fonction du temps. On voit que les formes réduites 
sont bien plus nombreuses que les formes pleines, phénomène dû à leur économicité. 
D'ailleurs dans les cas de Espaces naturels et Parchi on assiste à une croissance quasi- 
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constante de la densité de formes réduites et à une décroissance du nombre de formes 
pleines, au fil du temps. 

Ces exemples montrent que la réduction lexicale est corrélée à la technicité du 
domaine, ce qui prouve la première hypothèse. 

6.2.2. Deuxième hypothèse, cycle de vie de terme 

Selon ID UR 101 et [M0L 98], les termes complexes ont un cycle de vie lié à celui 
de l'objet qu'ils dénomment. Lorsque l'objet est encore peu connu, la forme pleine 
est indispensable pour le dénommer. Mais dans les cas où, progressivement, l'objet se 
répand, les réductions lexicales deviennent possibles, puisque le risque d'ambiguïté est 
moindre. Enfin, dans les cas où certains constituants de la forme pleine n'ont aucune 
charge sémantique réelle, la réduction lexicale finit par remplacer complètement la 
forme pleine. 

Pour déceler des traces du phénomène de « cycle de vie de terme », il a d'abord 
fallu « unifier » les mesures de datation et de position dans le texte. Pour cela, nous 
avons suivi l'approche suivante : 

1) nous définissons un corpus C comme étant une suite de N documents 
(I?i)i<i<jv datés. La datation est une fonction strictement croissante T : C — > Q N où 
T(Di) = anncc(A) + m ° is( 1 ^ ) ~ 1 ; 

2) en considérant un document Di comme une suite de caractères (Cj j) nous dé- 
finissons la fonction de datation généralisée T* comme la fonction linéaire par mor- 
ceaux qui étend T de au niveau des caractères : 




où 7r est la projection qui envoie le document Di sur son premier caractère Cj i. 

Autrement dit, si le document D 5 date du 1 er mai 2005 et D 6 du 1 er juin de la 
même année, alors T(D 5 ) = 2005 + ^ = 2005,333, T(D 6 ) = 2005,417; si 
une occurrence de terme se trouve à la position 37 238 de Di (dont la taille est, par 
exemple, de 57642 caractères) alors sa valeur de datation généralisée sera T*(ti) — 
T(D 5 ) + ^^-(T(D 6 )-T(D 5 )) = 2005,3873. Ainsi toute occurrence a une valeur 
de datation unique, compatible avec la datation des fichiers et avec l'ordre linéaire du 
texteQ; 



6. Suite à la remarque d'un relecteur de l'article, notons que cette fonction convient à des 
corpus figés. En effet, dans le cas d'un corpus dynamique, l'ajout de documents supplémentaires 
changerait les valeurs obtenues pour les anciens documents. 
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3) la fonction de datation généralisée nous permet de définir une distance tem- 
porelle d,T entre les occurrences de termes dans le corpus tout entier : d,T(ti,tj) = 
T*(tj) — T*(ti) ; 

4) ainsi, pour un terme donné, les occurrences de formes pleines et de formes 
réduites deviennent des ensembles ordonnés de points de la droite temporelle. 

La modélisation étant faite, posons-nous le problème de représentation du phé- 
nomène de « cycle de vie de terme ». On ne peut prendre simplement les premières 
occurrences de formes pleine et réduite, puisque celles-ci peuvent très bien être des 
outliers. Prendre la moyenne arithmétique des valeurs temporelles de toutes les formes 
pleines (resp. réduites) ne serait pas une solution non plus, puisqu'on s'intéresse aux 
débuts de l'apparition d'une forme et non pas à son historique complet. Il convient de 
traiter séparément les cas où le nombre d'occurrences prend de l'ampleur et ceux où 
il reste limité. Dans le premier cas, on limitera le nombre d'occurrences à considérer, 
dans le deuxième cas on prendra la totalité des occurrences. 

Comme nous voulons éviter l'aberration causée par des éventuels outliers, tout 
en gardant un maximum d'information pour le cas où le nombre d'occurrences est 
très limité, nous avons choisi de considérer la moyenne géométrique des N premières 
occurrences. En effet, la moyenne géométrique est mieux indiquée pour diminuer 
l'impact des outliers que la moyenne arithmétique. Dans les résultats présentés ci- 
dessous, on a pris N = 100. 

Nous allons donc calculer, pour chaque terme de chaque corpus, la quantité £ = 
f — t, où f et t sont les moyennes géométriques des 100 premières occurrences des 
formes réduites (resp. de la forme pleine) du terme. La fig. [7] représente la densité de 
£. On constate que la médiane de cette densité est positive dans tous les corpus, ce qui 
valide notre deuxième hypothèse. 



7. Conclusions et perspectives 

En traitant des corpus dans divers domaines et dans les deux langues (français 
et italien) nous avons validé expérimentalement nos hypothèses : que la réduction 
anaphorique dépend du type de discours, mais ne dépend pas du domaine ou de la 
langue ; que les formes réduites anaphoriques ont tendance à suivre les formes pleines, 
plutôt que de les précéder ; que la réduction lexicale dépend du domaine, et est plus 
fréquente dans les domaines techniques à évolution rapide ; et que les formes pleines 
suivent un cycle de vie et sont souvent remplacées par des formes réduites lexicales. 

Les logiciels de type Acabit IDAI 96 1 ou TerMine [FRA 98 1 extraient efficacement 
des termes complexes à partir de données textuelles en langue de spécialité, mais ne 
nous fournissent aucune indication sur les éventuelles relations sémantiques entre eux. 
Et pourtant, dans les langues de spécialité les relations d'hyponymie/hypéronymie 
entre les termes sont d'une importance capitale. 
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Emballages Magazine 



Espaces naturels 






Dialegesthai 



Italia Imballaggio 






Figure 7 - Densité des valeurs de £. La ligne bleue indique l'emplacement de la mé- 
diane. 



Dans ce travail nous avons essayé de fournir quelques indications sur la probabilité 
d'avoir, dans certains cas que nous nous proposons de décrire, des relations (quasi- 
)synonymiques. 

Un terme complexe peut être décrit en tant que tci . . . c„ où t est la tête et Cj 
les composants. Prenons, par exemple, n = 3. En réduisant le terme tc\C2C 3 nous 
obtenons le treillis suivant (où les flèches sont des réductions purement formelles, 
sans aucune hypothèse sur les relations sémantiques entre les termes) : 



tcic 2 c 3 
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Selon les définitions données dans la première partie de cet article, si réduction ana- 
phorique (ou cataphorique) il y a, elle correspond forcément aux flèches 1, 4 et 10, 
c'est-à-dire le bord gauche du treillis. Les autres flèches du treillis peuvent, par contre, 
être des réductions lexicales. 

Les hypothèses que nous avons démontré expérimentalement nous ont conduit à 
formuler les règles suivantes : 

1) si une réduction est du type tc\ . . . c„ — » tc\ . . . c„_i, si la forme pleine 
tc\ . . . c„ apparaît avant la forme réduite tc\ . . . c„_i, et si le texte est de catégorie 1 
(vulgarisation), alors il y a des fortes chances que la réduction soit anaphorique. 

Dans ce cas, s'agissant d'une anaphore, les mécanismes habituels de résolution 
d'anaphore peuvent être utilisés pour contribuer à la confirmation ou infirmation de 
l'hypothèse de réduction anaphorique ; 

2) pour le même type de réduction, si la forme pleine apparaît après la forme 
réduite et/ou si le texte est de catégorie 3 (discours scientifique spécialisé ou texte 
législatif), alors il y a peu de chances que ce soit une réduction anaphorique ; 

3) pour tout autre type de réduction dans le treillis ci-dessus, si le texte appar- 
tient à un domaine technique à évolution rapide, la possibilité d'une réduction lexicale 
(due à l'inutilité progressive d'un composant) existe. Pour la confirmer ou l'infirmer, 
il faudra utiliser des méthodes sémantiques. On pourra, par exemple, former des vec- 
teurs de concepts environnant les deux termes, dont les coefficients seraient pondérés 
par la fréquence d'occurrences au niveau du corpus. En comparant les vecteurs (par 
exemple, en calculant leur cosinus), on aurait une indication plus forte sur une éven- 
tuelle synonymie. 

Partant de là, nombreuses sont les pistes qui peuvent être suivies : 

1) en se basant sur notre corpus annoté, se poser la question de la pertinence de 
l'application des algorithmes traditionnels de résolution d'anaphore pour confirmer ou 
infirmer la réduction anaphorique ; 

2) idem, pour les mesures de similarité sémantique et la réduction lexicale. Notons 
que si la résolution d'anaphore et la mesure de similarité s'avèrent pertinentes dans 
ce domaine, celles-ci étant des techniques lourdes, notre approche peut fournir des 
critères pour évaluer la pertinence de leur utilisation dans un texte ; 

3) étendre notre étude à d'autres langues comme l'anglais (dont les mécanismes de 
réduction lexicale sont bien différents), l'allemand (qui fourmille de mots composés), 
les langues idéographiques (où le caractère est porteur de sens et où on assiste à un 
triangle terme - caractère - concept), etc. ; 

4) étudier l'interaction des réductions lexicales et anaphoriques : en effet, nous 
avons constaté (sans en tenir compte dans nos calculs) le phénomène suivant : une 
forme pleine (avec arbre anaphorique) était suivie d'une réduction lexicale possédant 
son propre arbre anaphorique mais dont les feuilles représentaient les mêmes formes 
que celles des feuilles de l'arbre de la forme pleine. Autrement dit, on peut qu'une 
forme réduite anaphorique se réfère à une forme pleine ou à une réduction lexicale de 
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celle-ci. Cela nous incite à fusionner les deux arbres (ceux des formes pleine et réduite 
lexicale) en un seul graphe qui puisse modéliser les deux types de réduction ; 

5) étudier la corrélation des différentes quantités définies dans cet article avec la 
C-valeur de Frantzi-Ananiadou-Tsujii [FRA 98 1 ; 

6) détecter les éventuels marqueurs anaphoriques dans le voisinage des formes 
réduites anaphoriques et se servir d'algorithmes de résolution d'anaphore pour obtenir 
un modèle plus riche de l'arbre anaphorique, dans lequel les arêtes représenteront, 
dans la mesure du possible, le lien entre anaphore et antécédent ; 

7) si l'« indice de réductibilité » est la probabilité qu'un terme complexe soit la 
réduction (lexicale ou anaphorique) d'un autre terme complexe, développer un algo- 
rithme qui calcule cet indice en se basant sur différents facteurs (type de texte, do- 
maine, position dans le texte, etc.). Cette information serait d'une grande utilité pour 
l'analyse sémantique, l'indexation ou la traduction automatique. 
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